# -*- encoding:utf-8 -*-
# author : Sz_wyz
# email : 1830413177@qq.com

'''
使用结巴分词模块 结巴分词支持三种分词方式
精准模式：视图将句子最精确地切开，适合文本分析
全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义
搜索引擎模式:在精确模式的基础上对长词再次切分，提高召回率，适合用于搜索引擎分词
'''
import jieba

# 结巴分词全模式
sent = '在包含问题的所有解的解空间树中，按照深度优先搜索的策略，从根节点出发深度探索解空间树'
wordlist = jieba.cut(sent, cut_all=True)
print('|'.join(wordlist))
# 结巴分词精确切分
wordlist = jieba.cut(sent)  # cut_all=False
print('|'.join(wordlist))
# 结巴分词搜索引擎模式
wordlist = jieba.cut_for_search(sent)
print('|'.join(wordlist))

# 自定义用户词典
# jieba.load_userdict()
# sent = '在包含问题的所有解的解空间树中，按照深度优先搜索的策略，从根节点出发深度探索解空间树'
# wordlist = jieba.cut(sent, cut_all=True)
# print('|'.join(wordlist))
# print(type(wordlist))